松尾研 GENIAC LLM開発マネジメント
LLM開発プロセス
データセットの選定・収集・加工
事前学習用データセットの選定・収集・加工
ファインチューニング用データセットの選定・収集・加工
トークナイザー選定
データセットのトークナイゼーション
モデルアーキテクチャ選定
モデル実装
事前学習
ファインチューニング
モデル評価
スケジュール
3月~4月:準備運動
0.1Bモデル学習
前半:各自1GPU
後半:各自マルチノード
4月~5月:コンペ本番
10Bモデル学習
6~8月:特典
50Bモデル学習
コンペ内容
計算資源
H100 GPU 80GB x 21ノード
1ノード 8GPU (640GB VRAM)
168GPU (1.3TB VRAM)
8チームで共有
独自のジョブシステムがある
制約
事前学習からのスクラッチ開発
以下のデータセットは禁止